iT邦幫忙

2024 iThome 鐵人賽

DAY 8
0

今天我要建構基因詳細頁面的 URL 模板,用以後續爬蟲。

在進行網頁爬蟲時,必須準確的知道要爬取的網頁之 URL 構建方式;今天我將使用每個基因的 Ensembl Gene ID,生成對應的基因詳細頁面 URL,這樣就能夠進行爬取並提取基因的位置訊息。

在 Ensembl 網站上,每個基因的詳細頁面 URL 都有著特定的格式,通常這些 URL 包含基因的 Ensembl Gene ID 作為唯一標識符;幾例來說,Ensembl Gene ID 為 ENSG00000139618 的基因,其詳細頁面 URL 為:

https://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000139618

因此,我可以使用這個 URL 模板,將每個基因的 Ensembl Gene ID 動態插入到 URL 中,從而生成每個基因的詳細頁面連結,具體 Code 如下:

base_url = "https://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g="

# 以 Ensembl Gene ID 生成每個基因的詳細頁面 URL
df['URL'] = base_url + df['ensembl_gene_id']

上面這段 code 中,定義了一個基礎 URL,並使用 + 操作符將每個基因的 ensembl_gene_id 拼接到 URL 後面,這樣就可以為每個基因生成對應的詳細頁面連結。為了確保生成的 URL 正確,我檢查了前面幾個 URL:

print(df['URL'].head())  

這一步的 URL 構建是爬取基因詳細訊息的前置過程,通過準確生成每個基因的 URL,就可以進一步使用爬蟲來抓取基因的位置訊息,並最終完成基因長度的計算。


上一篇
Day7:理解 Ensembl 網站的基因詳細頁面結構
下一篇
Day9:非同步爬蟲爬取基因詳細頁面
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言